목차
1. 한국인 메이저리거 선수들의 KBO에서 활동할 때의 데이터
2. pandas_profiling 모듈을 이용한 간단한 EDA를 통한 데이터 파악 - 메이저리거
3. 2020년 KBO 타율 순으로 상위 10명 선수들의 데이터 전처리
4. pandas_profiling 모듈을 이용한 간단한 EDA를 통한 데이터 파악 - KBO
5. 한국인 메이저리그 타자 선수들과 2020년 KBO 상위(타율순) 10명의 선수를 비교분석하여 어떤 선수가 메이저리그로 향할 가능성이 가장 높은지 알아보자!
한국인 메이저리거 선수들 중 '타자' 선수들의 데이터만 뽑아왔다.
위에서 가져온 타자 선수들의 이름으로 통산기록을 가져와보자
위의 데이터는 '강정호' 선수의 데이터이다.
위의 데이터는 '김현수' 선수의 데이터이다.
'강정호' 선수와 '김현수' 선수의 column 값들이 다른 것을 확인할 수 있는데, 그 이유는 은퇴한 선수와 그렇지 않은 선수의 column 값들이 다르기 때문이다.
공통 column으로 통일 시키고, 선수들의 통산기록(모든 시즌의 평균 기록)을 가져와보자
다음으로 한국인 메이저리거 중에서 타자 선수들의 통산기록(평균기록)을 가져와 dataframe을 만들었다.
하지만 각 선수마다 경기 수가 달라 득점, 안타, 홈런 등의 지표들이 신뢰도가 떨어지기 때문에 모든 지표들을 경기 수로 나눠 한 경기당 지표수로 나타내려고 한다.
모든 지표들을 전체 경기로 나눠 한 경기당 해당 지표를 구할 수 있다.
pandas_profiling을 통해 경기당 안타, 2루타, 3루타, 홈런, 타수 등의 최대값, 최솟값, 평균 등을 알 수 있고 값의 분포도 파악할 수 있다.
예시로 타율을 보면 평균이 0.2965정도 되고 히스토그램을 통해 0.3 이하에 많이 분포해 있는 것을 확인할 수 있다.
간단한 EDA(Exploratory Data Analysis, 탐색적 데이터 분석) 완료!
위이 데이터 또한 각 지표들을 경기수로 나누어 신뢰도를 높이자
한국인 메이저리그 타자 데이터와 KBO 상위 10명의 타자 데이터가 모두 준비되었다.
간단한 EDA를 마치고 분석을 시작해보자
타수 = 타자가 정규로 타격을 완료한 횟수 (볼넷, 사구, 희생타, 타격방해 등이 이루어진 타석은 타수에서 제외)
안타 = 단타, 장타 모두 포함
루타 = 1루타 + 2 * 2루타 + 3 * 3루타 + 4 * 홈런
타점 = 타자가 타석에서의 어떠한 플레이로 주자가 득점이 이루어지면 타자의 타점으로 기록 (예시-A선수가 안타를 쳐서 주자 두 명이 홈으로 들어오면 A선수의 2타점 적시타 기록)
병살타 = 타자가 타격 후 2개의 아웃을 동시에 당하는 것
득점 = 한 선수가 점수가 나도록 플레이트로 들어옴 (예시-A선수가 1-2-3루를 거쳐 홈으로 돌아와 2점을 얻었다. A선수의 개인기록에 2득점)
위의 그래프에서 지표별로 한국인 메이저리거와 2020년 KBO 상위 10명의 타자를 비교해보았다.
메이저리그에 진출한 선수들이 대부분의 지표에서 높을 거라 생각했지만 타율, 타수, 안타, 루타 등 많은 부분에서 KBO 상위 10명 선수들의 기록이 더 좋았다.
그렇다면 메이저리그 출신 선수들의 데이터를 이용해 선형회귀선을 그려보고 그 선을 기준으로 2020년 KBO 상위10명 선수들을 비교해보자
공격 지표 중 하나인 '타율'에 대해 한국인 메이저리거 선수들의 선형회귀 그래프를 맨 위에 그려보았다.
이 선을 기준으로 2020년 KBO 상위 10명의 선수들의 '타율' 데이터를 연도별로 그려보았더니 어떤 선수가 '타율' 지표에서 메이저리그 선수들보다 뛰어난지 뒤떨어지는지 쉽게 파악할 수 있었다.
이제 지표별(타점, 안타, 홈런 등)로 KBO선수들과 메이저리그 선수들을 비교해보고 데이터 중 과반수 이상 선형회귀선을 넘으면 가산점을 부여하여 어떤 선수의 능력치가 더 우수한 지 알아보자
예시1 - 최형우 선수의 타율 데이터 15개 중 8개(과반수)이상이 선형회귀 선보다 더 높은 값을 가지면 가산점 +1 (높을수록 좋은 지표들의 경우)
예시2 - 도루실패, 삼진, 병살타, 실책은 데이터의 과반수가 선형회귀 선보다 더 낮은 값을 가지면 +1 (낮을수록 좋기 때문에)
1.
가산점이 10 이상인 선수를 뽑아보면 최형우, 김현수, 나성범, 손아섭 선수이다.
최형우 선수는 2021년을 기준으로 39살이 되어 메이저리그 진출이 어려워 보이고, 김현수 선수는 이미 메이저리그에 갔다온 경험이 있어 제외시키고 다른 선수들을 살펴보자
나성범 선수의 경우 뉴스터치: 나성범 메이저리그(MLB) 진출 무산 기사를 보면 포스팅시스템을 통해 MLB에 진출하려 했으나 실패했다는 사실을 알 수 있다.
비록 나성범 선수의 메이저리그 진출은 무산되었지만 데이터 분석을 통해 진출 가능성을 예상해 볼 수 있었다.
손아섭 선수의 경우 2015년 시즌이 끝나고 메이저리그 진출을 선언하였지만 포스팅 결과 메이저 리그 구단 중 손아섭의 포스팅에 참여한 구단이 없었다.
그 후 2017년 롯데와 4년 88억 원에 롯데에 잔류하기로 하였고, "메이저리그 도전보다는 롯데에 우승을 안겨주는 게 더 중요하다. 롯데 이외의 팀은 생각해 본 적도 없다."라고 언급한 것을 보면 앞으로 메이저리그 진출에 도전하지 않을 것으로 보인다.
그 다음으로 가산점이 높은 이정후 선수를 살펴보자
2.
이정후 선수는 2021년을 기준으로 24살이 되었고, 어린 나이에 쌓아올린 경력이 상위권에 머무르고 있는 것을 보아 메이저리그에 진출할 가능성이 제일 높아보인다.
조선일보: ‘3년 뒤 포스팅 가능’ 이정후, 성장세 유지한다면 해외진출도 OK뿐만 아니라 다른 여러 기사에도 이정후 선수의 MLB 진출 가능성을 높게 보기 때문에 제일 유력하다고 생각한다!
타율, 안타, 홈런 같은 단순한 지표보다 타자를 평가하기에 더 정확한 지표인 장타율, 출루율, wOBA, WAR 등의 지표를 이용해 분석해보자
다음 데이터 스토리로 GO GO~